Telegram Group & Telegram Channel
Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.



tg-me.com/sqlhub/1910
Create:
Last Update:

Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.

BY Data Science. SQL hub




Share with your friend now:
tg-me.com/sqlhub/1910

View MORE
Open in Telegram


Data Science SQL hub Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

NEWS: Telegram supports Facetime video calls NOW!

Secure video calling is in high demand. As an alternative to Zoom, many people are using end-to-end encrypted apps such as WhatsApp, FaceTime or Signal to speak to friends and family face-to-face since coronavirus lockdowns started to take place across the world. There’s another option—secure communications app Telegram just added video calling to its feature set, available on both iOS and Android. The new feature is also super secure—like Signal and WhatsApp and unlike Zoom (yet), video calls will be end-to-end encrypted.

Data Science SQL hub from nl


Telegram Data Science. SQL hub
FROM USA